最近,图形神经网络(GNN)已被广泛用于开发成功的推荐系统。尽管功能强大,但基于GNN的建议系统很难附上明显的解释,说明为什么特定项目最终在给定用户的建议列表中。确实,解释基于GNN的建议是独特的,而现有的GNN解释方法是不合适的,原因有两个。首先,传统的GNN解释方法是为节点,边缘或图形分类任务而不是排名而设计的,如推荐系统中。其次,标准的机器学习解释通常旨在支持熟练的决策者。相反,建议是为任何最终用户设计的,因此应以用户理解的方式提供其解释。在这项工作中,我们提出了润滑脂,这是一种新的方法,用于解释任何基于黑盒GNN的建议系统提供的建议。具体而言,Grease首先在目标用户项目对及其$ L $ -HOP社区上训练替代模型。然后,它通过找到最佳的邻接矩阵扰动来捕获足够和必要的条件,分别推荐一个项目,从而生成事实和反事实解释。在现实世界数据集上进行的实验结果表明,油脂可以为流行的基于GNN的推荐模型产生简洁有效的解释。
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
大多数行人轨迹预测方法都取决于大量的轨迹注释,这是耗时且昂贵的。此外,训练有素的模型可能无法有效地推广到另一台相机捕获的新场景。因此,希望将在注释源域上训练的模型调整到目标域。为了实现轨迹预测的域适应性,我们提出了跨域轨迹预测网络(CTP-NET)。在此框架中,在两个域中使用编码器来编码观察到的轨迹,然后它们的特征由跨域特征鉴别器对齐。此外,考虑到观察到的轨迹和预测轨迹之间的一致性,目标域偏移判别器被用来对抗对未来的轨迹预测进行对流规范,以与观察到的轨迹相符。广泛的实验证明了我们方法对行人轨迹预测的域适应性的有效性。
translated by 谷歌翻译
Bootstrap aggregating (Bagging) and boosting are two popular ensemble learning approaches, which combine multiple base learners to generate a composite model for more accurate and more reliable performance. They have been widely used in biology, engineering, healthcare, etc. This paper proposes BoostForest, which is an ensemble learning approach using BoostTree as base learners and can be used for both classification and regression. BoostTree constructs a tree model by gradient boosting. It increases the randomness (diversity) by drawing the cut-points randomly at node splitting. BoostForest further increases the randomness by bootstrapping the training data in constructing different BoostTrees. BoostForest generally outperformed four classical ensemble learning approaches (Random Forest, Extra-Trees, XGBoost and LightGBM) on 35 classification and regression datasets. Remarkably, BoostForest tunes its parameters by simply sampling them randomly from a parameter pool, which can be easily specified, and its ensemble learning framework can also be used to combine many other base learners.
translated by 谷歌翻译
Monocular depth estimation has been actively studied in fields such as robot vision, autonomous driving, and 3D scene understanding. Given a sequence of color images, unsupervised learning methods based on the framework of Structure-From-Motion (SfM) simultaneously predict depth and camera relative pose. However, dynamically moving objects in the scene violate the static world assumption, resulting in inaccurate depths of dynamic objects. In this work, we propose a new method to address such dynamic object movements through monocular 3D object detection. Specifically, we first detect 3D objects in the images and build the per-pixel correspondence of the dynamic pixels with the detected object pose while leaving the static pixels corresponding to the rigid background to be modeled with camera motion. In this way, the depth of every pixel can be learned via a meaningful geometry model. Besides, objects are detected as cuboids with absolute scale, which is used to eliminate the scale ambiguity problem inherent in monocular vision. Experiments on the KITTI depth dataset show that our method achieves State-of-The-Art performance for depth estimation. Furthermore, joint training of depth, camera motion and object pose also improves monocular 3D object detection performance. To the best of our knowledge, this is the first work that allows a monocular 3D object detection network to be fine-tuned in a self-supervised manner.
translated by 谷歌翻译
道路网络的图结构对于自动驾驶系统的下游任务,例如全球计划,运动预测和控制至关重要。过去,公路网络图通常由人类专家手动注释,这是耗时且劳动力密集的。为了获得更好的有效性和效率的道路网络图,需要进行自动的路网图检测方法。先前的作品要么是后处理的语义分割图,要么提出基于图的算法以直接预测道路网络图。但是,以前的作品遭受了硬编码的启发式处理算法和劣质最终性能。为了增强先前的SOTA(最新方法)方法RNGDET,我们添加了一个实例分割头,以更好地监督模型培训,并使模型能够利用骨干网络的多尺度功能。由于新提出的方法从RNGDET改进,因此命名为RNGDET ++。所有方法均在大型公开数据集上进行评估。 RNGDET ++在几乎所有度量分数上都优于基线模型。它将拓扑正确性APL(平均路径长度相似性)提高了3 \%。演示视频和补充材料可在我们的项目页面\ url {https://tonyxuqaq.github.io/projects/rngdetplusplus/}中获得。
translated by 谷歌翻译
标记级别的高清地图(HD地图)对自动驾驶汽车具有重要意义,尤其是在大规模,外观改变的情况下,自动驾驶汽车依靠标记来定位和车道来安全驾驶。在本文中,我们提出了一个高度可行的框架,用于使用简单的传感器设置(一个或多个单眼摄像机)自动构建标记级别的高清图。我们优化标记角的位置,以适合标记分割的结果,并同时优化相应摄像机的反视角映射(IPM)矩阵,以获得从前视图图像到鸟类视图(BEV)的准确转换。在定量评估中,构建的高清图几乎达到了百厘厘米级的准确性。优化的IPM矩阵的准确性与手动校准相似。该方法还可以概括以通过增加可识别标记的类型来从更广泛的意义上构建高清图。
translated by 谷歌翻译
随着自动驾驶汽车的快速发展,目击者对高清地图(HD地图)的需求蓬勃发展,这些地图(HD地图)在自主驾驶场景中提供了可靠且强大的静态环境信息。作为高清图中的主要高级元素之一,道路车道中心线对于下游任务(例如预测和计划)至关重要。人类注释器手动注释车道中心线高清图是劳动密集型,昂贵且效率低下的,严重限制了自动驾驶系统的广泛应用和快速部署。以前的工作很少探索中心线高清图映射问题,这是由于拓扑复杂和道路中心线的严重重叠问题。在本文中,我们提出了一种名为CenterLinedet的新方法,以自动创建Lane Centrine HD地图。通过模仿学习对CenterLinedet进行训练,并可以通过使用车辆安装的传感器进行迭代有效地检测到车道中心线的图。由于应用了类似DITR的变压器网络,CenterLinedet可以处理复杂的图形拓扑,例如车道相交。在大型公开数据集Nuscenes上评估了所提出的方法,并通过比较结果很好地证明了CenterLinedet的优势。本文附有一个演示视频和一个补充文档,可在\ url {https://tonyxuqaq.github.io/projects/centerlinedet/}中获得。
translated by 谷歌翻译
Hazop是为揭示行业危害的安全范式,其报告涵盖了有价值的危害事件(HAE)。 HAE分类的研究具有许多不可替代的务实值。但是,没有研究对此主题如此关注。在本文中,我们提出了一种新颖的深度学习模型,称为DLF,从语言的角度通过分形方法探索HAE分类。动机是(1):HAE自然可以被视为一种时间序列; (2):HAE的含义是由单词排列驱动的。具体而言,首先我们采用bert来矢量化hae。然后,我们提出了一种称为HMF-DFA的新的多型方法,通过分析被视为时间序列的HAE矢量来计算HAE分形系列。最后,我们设计了一个新的分层门控神经网络(HGNN)来处理HAE分形系列以完成HAE的分类。我们进行了18个过程进行案例研究。我们根据他们的Hazop报告启动实验。实验结果表明,我们的DLF分类器令人满意和有前途,提出的HMF-DFA和HGNN有效,并且将语言分形引入HAE是可行的。我们的HAE分类系统可以为Hazop提供服务,并为专家,工程师,员工和其他企业带来应用激励措施,这有利于工业安全的智能发展。我们希望我们的研究能为工业安全和分形理论的日常实践提供更多支持。
translated by 谷歌翻译
Hazop可以将危害作为文本信息暴露,研究其分类对于工业信息学的发展具有重要意义,这有利于安全性预警,决策支持,政策评估等。但是,对这一重要的研究没有研究目前。在本文中,我们提出了一种通过深度学习危害分类来称为DLGM的新型模型。具体而言,首先,我们利用BERT将危险矢量化并将其视为时间序列(HTS)。其次,我们构建了一个灰色模型FSGM(1,1)来对其进行建模,并从结构参数的意义上获得灰色指导。最后,我们设计了一个层次 - 特征融合神经网络(HFFNN),以从三个主题中使用灰色指导(HTSGG)调查HTS,其中HFFNN是一种具有四种模块的层次结构:两种功能编码器,一个门控机制,和一个门控机制和一个模块。加深机制。我们将18个工业流程作为应用程序案例,并启动一系列实验。实验结果证明,DLGM有望成为危险分类的才能,FSGM(1,1)和HFFNN具有有效性。我们希望我们的研究能为工业安全的日常实践贡献价值和支持。
translated by 谷歌翻译